V2EX  ›  英汉词典
Enqueued related words: Thompson Sampling, UCB

Multi-armed Bandit

释义 Definition

“多臂老虎机问题 / 多臂强盗问题”:指一种经典的决策与学习问题——面对多个可选项(“臂”),每个选项的回报分布未知;你需要在“探索”(试新选项获取信息)与“利用”(选择当前看起来最优的选项获取回报)之间权衡,以最大化长期收益。常用于强化学习、在线广告投放、推荐系统、临床试验等场景。

发音 Pronunciation

/ˌmʌlti ɑrmd ˈbændɪt/

例句 Examples

We used a multi-armed bandit to choose which headline to show.
我们用多臂老虎机算法来决定展示哪条标题。

In production, the multi-armed bandit balances exploration and exploitation while updating its choice probabilities from real-time user feedback.
在生产环境中,多臂老虎机方法会在探索与利用之间取得平衡,并根据实时用户反馈不断更新各选项的选择概率。

词源 Etymology

该术语借用了赌场“老虎机”的形象:传统老虎机常被戏称为 one-armed bandit(“独臂强盗”,因拉杆像一只手臂且让人输钱)。当可供选择的“老虎机”不止一台时,就变成 multi-armed bandit,其中“多臂”对应“多个选择/多个动作”。

相关词 Related Words

文学与经典著作出现 Literary Works

  • Reinforcement Learning: An Introduction(Sutton & Barto)
  • Bandit Algorithms(Lattimore & Szepesvári)
  • Multi-Armed Bandit Allocation Indices(Gittins)
  • Prediction, Learning, and Games(Cesa-Bianchi & Lugosi)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1986 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 03:56 · PVG 11:56 · LAX 19:56 · JFK 22:56
♥ Do have faith in what you're doing.